如何给女朋友解释为什么不能在MySQL中使用UTF-8编码

ImportNew 2021-12-02

The following article is from 漫话编程 Author 漫话编程

（给ImportNew加星标，提高Java技能）

MySQL 是一种关系型数据库，这个大家肯定都不陌生。使用 MySQL 创建数据库的时候，大家需要指定一种编码方式。

很多时候，大家基于自己对编码方式的了解，会认为 UTF-8 是一种通用的编码方式，所以大多数时候会默认选择这种编码方式。

但是，这往往会给你的数据库埋下一个大坑！！！

1. MySQL 对 Unicode 的支持

Unicode 字符集已经成为计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得计算机可以用更为简单的方式来呈现和处理文字。

为了适应不同的数据存储和传递需求，人们提出了 Unicode Transformation Format（UTF）系列编码。这其中包含 UTF-8、UTF-16、UTF-32 等。

通过查阅 MySQL 官方文档我们可以知道，在 MySQL 中主要支持以下字符集：utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。

https://dev.mysql.com/doc/refman/8.0/en/charset-unicode.html

不同的字符集的区别在于包含的字符情况以及存储需要的空间。

在 MySQL 官方文档中，介绍了支持的编码方式之后，还有一段醒目的提醒：

翻译过来是：utf8mb3 字符集已被弃用，它在未来的 MySQL 版本中将会被删除，请使用 utf8mb4 代替。在目前的 8.0 版本中，utf8 指的就是 utf8mb3，虽然未来可能改成 utf8mb4，但是为了避免产生歧义，可以考虑为字符集引用显式指定 utf8mb4，而不是 utf8。

也就是说，当我们在 MySQL 8.0 中指定字符编码方式为 UTF-8 的时候，其实使用的是 utf8mb3 这种编码方式。

那么，我们先来说说 utf8mb3。

2. utf8mb3

utf8mb3 字符集是 MySQL 早期就支持的字符集，具有以下特征:

仅支持 BMP 字符（不支持补充字符）；
每个多字节字符最多需要三个字节。

注意：仅支持BMP字符。那么什么是 BMP 字符呢？

BMP 是 Basic Multilingual Plane 的缩写，即码位在 0 到 65535 之间（或者 U+0000 和 U+FFFF）的字符。

BMP 中并不包含补充字符，即码位在 U+10000 和 U+10FFFF 之间的的字符。补充字符有哪些呢，如一些生僻的汉字，或者 Emoji 表情等都是补充字符。

也就是说，如果在建表的时候，指定的编码方式是 utf8mb3（utf-8）。那么对于一些生僻字或者 Emoji 表情都无法表示。

3. utf8mb4

早期的时候，Unicode 只用到了 0~0xFFFF 范围的数字编码，这就是 BMP 字符集。

所以，最初 MySQL 在设计之初，也就只涉及了包含 BMP 字符集的 utfmb3(utf-8)。但是随着文字越来越多，3 个字节肯定无法全部表示，于是 Unicode 支持的字符就更多了。

所以，早期的 utfmb3 在有些场景中就不能满足需求了。于是，MySQL 在 5.5.3 之后增加了 utf8mb4 的编码。

utfmb4 字符集具有以下特征:

支持 BMP 和补充字符；
每个多字节字符最多需要 4 个字节。

utf8mb4 与 utf8mb3 字符集不同，utf8mb3 字符集只支持 BMP 字符，每个字符最多使用三个字节：

对于BMP字符，utf8mb4 和 utf8mb3 具有相同的存储特征。即相同的编码值，相同的编码，相同的长度；
对于补充字符，utf8mb4 需要 4 个字节来存储它，而 utf8mb3 根本不能存储该字符。

所以，我们说 utf8mb4 是 utf8mb3 的超集。

很多时候为了考虑到兼容性，建议创建 MySQL 表的时候，使用 utf8mb4 而不是utf8！

4. utf8mb3 和 utf8mb4 区别及优缺点

前面分别介绍了 utf8mb3 和 utf8mb4 字符集，它们的区别如下：

utf8mb3 只支持 BMP（Basic Multilingual Plane）的字符。utf8mb4 还支持 BMP 之外的补充字符；
utf8mb3 每个字符最多使用 3 个字节。Utf8mb4 每个字符最多使用 4 个字节；
utf8mb4 比 utf8mb3 来说能表示更多的补充字符，但同时占用的空间可能会更大一些。

5. 从utf8mb3转换成utf8mb4

首先，想要把字符集从 utf8mb3 转换到 utf8mb4 问题不大：

对于 BMP 字符，utf8mb4 和 utf8mb3 具有相同的存储特征：相同的编码值、相同的编码、相同的长度；
对于补充字符，utf8mb4 需要 4 个字节来存储它。而 utf8mb3 根本不能存储该字符。当将 utf8mb3 列转换为 utf8mb4 时，不必担心转换补充字符，因为没有补充字符。

假设有一张已知表使用了utf8mb3：

CREATE TABLE t1 ( col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL, col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL) CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4：

ALTER TABLE t1 DEFAULT CHARACTER SET utf8mb4, MODIFY col1 CHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL, MODIFY col2 CHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

- EOF -

推荐阅读点击标题可跳转

1、如何驾驭MySQL 架构设计，实现千亿级数据分库分表？

2、为什么数据库字段要使用NOT NULL？

3、为什么ElasticSearch比MySQL更适合复杂条件搜索

看完本文有收获？请转发分享给更多人

关注「ImportNew」，提升Java技能

点赞和在看就是最大的支持❤️

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

如何给女朋友解释为什么不能在MySQL中使用UTF-8编码

4. utf8mb3 和 utf8mb4 区别及优缺点

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

生成图片，分享到微信朋友圈

如何给女朋友解释为什么不能在MySQL中使用UTF-8编码

4. utf8mb3 和 utf8mb4 区别及优缺点

您可能也对以下帖子感兴趣